日本古典籍くずし字データセットは、日本古典籍データセットで公開されるデジタル化された古典籍を中心に、翻刻テキストを制作する過程で生まれるくずし字の座標情報などを、機械のための学習データや人間のための学習データとして提供します。
くずし字データベース検索(ひらがな(変体仮名)・カタカナ・漢字)
データ概要
2019年11月現在、日本古典籍くずし字データセットの規模は、国文学研究資料館所蔵で日本古典籍データセットにて公開する古典籍、および国文学研究資料館の関係機関が公開する古典籍44点の画像データ6,151コマから切り取った、くずし字4,328文字種の字形データ1,086,326文字です。
原本補正画像データ | 日本古典籍データセットほかで公開する画像に対して、翻刻作業を容易にするための前処理として、見開き画像を分離するとともに、回転させて正立させるという処理を加えた画像です。 |
文字座標データ | 原本補正画像データ上で、文字を取り囲む長方形の座標(XYWH)、文字のUnicodeコードポイント、ブロックID、文字IDを記録したものです。 |
字形画像データ | 「原本補正画像データ」に「文字座標データ」を適用して切り抜いた画像であり、文字種ごとに字形を閲覧しやすくするために提供するものです。 |
なおデータセットの仕様については、国文学研究資料館が「くずし字データセット」データ作成基本仕様を公開しています。
このデータセットを引用した論文
ライセンス
『日本古典籍くずし字データセット』(国文学研究資料館ほか所蔵/情報・システム研究機構 データサイエンス共同利用基盤施設 人文学オープンデータ共同利用センター加工)はクリエイティブ・コモンズ 表示 - 継承 4.0 国際 ライセンス(CC BY-SA)の下に提供されています。
データセット全体をご利用の際には、例えば以下のような表示をお願いします。個別の古典籍のみをご利用の場合には、それぞれのページをご覧下さい。
『日本古典籍くずし字データセット』(国文研ほか所蔵/CODH加工) doi:10.20676/00000340
可能な場合は、データ提供元であるROIS-DS人文学オープンデータ共同利用センターへのリンクをお願いします。
データ提供方法・注意事項
書籍ごとに字形をまとめたZIPファイル、および全部をまとめたZIPファイルを提供します。字形画像データは、全部で数万個のファイルが展開されることがありますので、ご注意下さい。
新字と旧字については、常用漢字の範囲で旧字を新字に統合しました。これは検索などの利便性を考慮した決定です。変換には新旧字体表(常用漢字表)を活用しました。また変体仮名については、変体仮名のUnicodeではなく、変体仮名を統合した現代仮名のUnicodeを用います。
本データセットは翻刻の過程で生み出されたデータです。翻刻とは人間による高精度のテキスト化を意味し、機械による文字認識(OCR)とは異なります。翻刻作業の補助ツールとしてOCRを使うこともありますが、最終的には人間が文字を決定します。この部分は熟練者が作業を進めましたが、それでも読めなかった文字は空白になっているところがあります。またルビについては、現段階では翻刻の対象外です。
本データセットは、主に江戸時代の古典籍に出現した字形を扱っています。しかし、対象とする古典籍のテーマが限られているため、出現する文字種には偏りがあります。今後はより多くのテーマに関する古典籍から字形を集める計画です。さらに前の時代の字形や、古文書に出現する字形などをデータセットに加えていくことも今後の課題です。
バージョンについて
2019年11月11日の更新では、旧字と新字の統合などを中心に、データセットに対する各種のクリーニングを丁寧に行いました。そのためデータセットの内容そのものが非連続的に変化したことから、新しいデータセットをバージョン2、2019年11月11日以前のデータセットをバージョン1と命名することにしました。またこれを機に、データセットZIPファイルのURLもすべて変更しました。
混同を避けるため、現在ダウンロードできるデータはすべてバージョン2に揃えました。ただし過去の研究との連続性を保つため、引き続きバージョン1をダウンロードしたいという方がおられるかもしれません。そのため、バージョン2のダウンロードURLに含まれる「v2」文字列を「v1」に変更すれば、旧データセットをダウンロードできるようにしました。
表記について
くずし字については、「崩し字」「崩し文字」という表記も一部に見受けられますが、学術的な表記は「くずし字」であるため、本サイトもこの表記に統一します。
問い合わせ先
データ・資料に関する問い合わせ窓口 (国文研)
国文学研究資料館
電子メール:htddpsinfo [at] nijl.ac.jp
ウェブサイトに関する問い合わせ窓口 (CODH)
情報・システム研究機構 データサイエンス共同利用基盤施設 人文学オープンデータ共同利用センター
電子メール:kitamoto [at] nii.ac.jp
活用例
くずし字データセットは、手書き文字のデータセットとして文字認識(OCR)の研究開発に利用できます。AIくずし認識などに関する情報は、以下をご覧下さい。
くずし字データセットを用いた機械学習コンペティションについては、以下をご覧下さい。
くずし字データセットから派生した機械学習用データセットについては、以下をご覧下さい。
くずし字データセットに関する研究の進展については、以下をご覧下さい。
日本文化とAIシンポジウム2019〜AIがくずし字を読む時代がやってきた〜
第2回CODHセミナー くずし字チャレンジ 〜機械の認識と人間の翻刻の未来〜
参考文献
KuroNetのページをご覧下さい。
その他の文字データセット
篆書字体データセット - 印鑑などに使われる篆書(てんしょ)の文字データセット
近代雑誌OCR学習用データセット - 明治初期から中期にかけて出版された雑誌(近代雑誌)の文字データセット
ニュース
2022-05-08
データセット全体のダウンロードについて、「字形画像を含む」ファイルと「字形画像を除く」ファイルの2種類を用意しました。またZIPファイルの構成も変更しましたのでご注意下さい。なお機械学習に用いるデータセットの中身には変更ありません。
2020-06-11
Unicode変体仮名一覧を公開しました。 Unicodeに登録されている変体仮名285文字(U+1B002〜U+1B11E)を現代のひらがなごとにまとめ直し、ひらがなごとに字母を確認できるようにしました。
2019-11-11
日本古典籍くずし字データセットに字形データを大幅に追加し、文字数が684,165→1,086,326と100万文字を越えました。またデータセット全体に対してクリーニングを丁寧に行い、その過程で一部の旧字を新字に統合したため、文字種は4,645→4,328に減少しました。
さらに、このデータセットを機械学習に活用したAIくずし字OCRサービスの一つとして、KuroNetくずし字認識サービスも同時に公開しました。
2019-11-05
IIIF Curation Viewer V1.7の新機能を活用したくずし字データセット閲覧ビューアを公開しました。くずし字の翻字を文字マーカーとして表示することで、くずし字と現代の文字を左右に並べて表示し、IIIF画像上で翻刻を読みやすくしました。
2019-03-18
くずし字検索を公開しました。
2019-01-30
日本古典籍くずし字データセットに字形データを追加し、文字種が3,999→4,645、文字数が403,242→684,165(約1.7倍)に増えました。数点の料理本に加え、言葉遊び本『ぢぐち』や、人情本の代表作『春色梅児誉美』、人気滑稽本『浮世風呂』などを含みます。
2018-11-17
日本古典籍くずし字データセット / Kuzushiji Dataset(旧名:日本古典籍字形データセット / Dataset of PMJT Character Shapes)にdoi:10.20676/00000340を付与しました。
2017-10-13
日本古典籍字形データセットで、データがダウンロードできなくなっていた問題を修正しました。
2017-06-06
養蚕秘録 日本古典籍字形データセットにファイル名の誤りが存在しましたので修正しました。なおデータの中身には変更ありません。
2017-06-02
日本古典籍字形データセットにくずし字データを追加し、文字種が1,521→3,999、文字数が86,176→403,242に増えました。またライセンスはCC BY-SA 4.0で変更ありませんが、表示すべき情報が変わりましたのでご確認下さい。
2017-03-20
第21回 PRMUアルゴリズムコンテスト この文字読めますか? 〜くずし字認識にチャレンジ!〜の告知が始まりました。CODHは日本古典籍字形データセットを提供し、コンテストの企画にも関わります。
2016-11-17
日本古典籍字形データセットを公開しました(ニュース)。